模型性能 - 智狐AI导航

MoE++

MoE++是一种基于混合专家架构的新型深度学习框架，通过引入零计算量专家、复制专家和常数专家，有效降低计算成本并提升模型性能。它支持Token动态选择FFN专家，并利用门控残差机制实现稳定路由，同时优化计算资源分配。该框架易于部署，适用于多种应用场景，包括自然语言处理、智能客服及学术研究。

AI项目与工具 2025年06月12日 40 点赞 0 评论 682 浏览

WiS

WiS是一个基于“谁是卧底”游戏规则的在线AI竞赛平台，专为评估和分析大型语言模型（LLMs）在多智能体系统中的行为而设计。平台提供统一的模型评估接口、实时排行榜、全面的行为评估功能以及详尽的数据可视化支持，旨在为研究人员和开发者提供一个直观且高效的工具，用于测试和优化智能体在复杂交互环境中的表现。

AI项目与工具 2025年06月12日 20 点赞 0 评论 452 浏览

TPO

TPO（Test-Time Preference Optimization）是一种在推理阶段优化语言模型输出的框架，通过将奖励模型反馈转化为文本形式，实现对模型输出的动态调整。该方法无需更新模型参数，即可提升模型在多个基准测试中的性能，尤其在指令遵循、偏好对齐、安全性和数学推理等方面效果显著。TPO具备高效、轻量、可扩展的特点，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 83 点赞 0 评论 601 浏览

Claude 3.7 Sonnet

Claude 3.7 Sonnet 是由 Anthropic 推出的混合推理模型，支持标准模式与扩展思考模式，适用于复杂任务处理和日常交互。其在数学、物理、编程等领域表现卓越，尤其在代码生成与理解方面领先。模型优化了安全性，减少误拒率，并支持多平台接入。适用于软件开发、前端设计、科学计算及企业自动化等多个场景。

AI项目与工具 2025年06月12日 37 点赞 0 评论 573 浏览

WorldScore是由斯坦福大学推出的统一世界生成模型评估基准，支持3D、4D、图像到视频（I2V）和文本到视频（T2V）等多种模态。它从可控性、质量和动态性三个维度进行评估，涵盖3000个测试样本，包括静态与动态、室内与室外、逼真与风格化等多种场景。WorldScore具备多场景生成、长序列支持、图像条件生成、多风格适配等功能，适用于图像到视频、图像到3D生成以及自动驾驶场景模拟等应用，为研究

AI项目与工具 2025年06月12日 87 点赞 0 评论 632 浏览

BrowseComp

BrowseComp 是 OpenAI 开源的 AI 浏览能力评估基准，包含 1266 个高难度问题，覆盖多个领域。它要求 AI 代理进行多步骤推理和跨网站信息整合，测试其搜索、分析和适应能力。Deep Research 模型在其中表现优异，准确率达 51.5%。该工具适用于企业知识库、电商导购、政府服务及 AI 研究等领域，推动智能浏览技术发展。

AI项目与工具 2025年06月11日 50 点赞 0 评论 546 浏览

LMEval

LMEval是谷歌推出的开源框架，用于简化大型语言模型（LLMs）的跨提供商评估。它支持多模态（文本、图像、代码）和多指标评估，兼容Google、OpenAI、Anthropic等主流模型提供商。LMEval基于增量评估引擎，节省时间和计算资源，并通过自加密的SQLite数据库安全存储评估结果。LMEvalboard提供交互式可视化界面，帮助用户分析模型性能并直观比较不同模型的优缺点。

AI项目与工具 2025年06月11日 27 点赞 0 评论 279 浏览

PromptBench

一个基于 Pytorch 的 Python 包，用于评估和理解大型语言模型的统一库。它为研究人员提供了用户友好的 API，以便对 LLM 进行评估。

Ai提示指令 2025年06月05日 72 点赞 0 评论 426 浏览

Darwin模型

Darwin模型是一个专门为自然科学领域（尤其是物理、化学和材料科学）设计的大语言模型（LLM），只要通过整合结构化和非结构化的科学知识，提升语言模型在科学研究

Ai平台模型 2025年06月05日 19 点赞 0 评论 477 浏览

模型性能

首页

模型性能

列表

默认

浏览次数

发布日期